Lab 11 - Projekt blok2_2025
Projekt Blok 2_2025
Eksploracyjna Analiza Danych: Skuteczność Szczepień przeciwko odrze
1. Cel projektu
Celem projektu jest eksploracyjna i statystyczna analiza danych historycznych dotyczących:
- zachorowalności na odrę,
- poziomu wyszczepialności przeciwko odrze,
- wybranych czynników społeczno-ekonomicznych,
w celu:
- identyfikacji trendów czasowych i przestrzennych zachorowań,
- określenia czynników sprzyjających występowaniu ognisk epidemicznych,
- oceny związku między wyszczepialnością a odpornością populacyjną,
- budowy modelu predykcyjnego ryzyka wystąpienia ognisk odry.
Projekt realizowany jest w duchu eksploracyjnej analizy danych (EDA) z wykorzystaniem metod statystycznych i elementów modelowania.
2. Kontekst epidemiologiczny
Odra i współczynnik reprodukcji
Odra jest wysoce zakaźną chorobą wirusową. Mimo że w wielu krajach europejskich przez pewien czas uznawana była za wyeliminowaną, w ostatnim czasie obserwuje się jej nawroty, co stanowi istotne wyzwanie dla zdrowia publicznego. Współczynnik Reprodukcji (\(\text{R}_0\)): Określa on średnią liczbę wtórnych zakażeń, wywołanych przez jednego chorego w populacji w pełni podatnej na zakażenie (tj. przed wprowadzeniem szczepień lub innych interwencji). Odra ma jeden z najwyższych wskaźników \(\text{R}_0\), szacowany na około 12-18. Oznacza to, że jedna osoba chora może zarazić od 12 do 18 innych osób, jeśli żadna z nich nie ma odporności.
Odporność populacyjna
W teorii krytyczny odsetek zaszczepionych (PCV – Population Critical Value) wymagany do uzyskania odporności populacyjnej obliczany jest jako:
Dla odry oznacza to poziom wyszczepialności rzędu 93–95%.
Kontrowersje szczepienia przeciwko odrze
Szczepionka przeciwko odrze (najczęściej w postaci skojarzonej MMR: odra, świnka, różyczka) jest wysoce skuteczna. Podawana jest w populacji dzieci i, zgodnie z aktualną wiedzą naukową, zapewnia trwałą odporność na całe życie. Ze względu na ciężki przebieg odry, zwłaszcza u małych dzieci (ryzyko powikłań takich jak zapalenie płuc, zapalenie mózgu), w większości krajów szczepienie jest kluczowym elementem przeciwdziałania zakażeniom. Wokół szczepionki MMR wciąż utrzymują się kontrowersje, które w pewnych kręgach łączą ją z występowaniem autyzmu. Choć te teorie zostały wielokrotnie obalone przez badania naukowe, ich wpływ na decyzje dotyczące szczepień w niektórych społecznościach jest zauważalny i może prowadzić do obniżenia poziomu wyszczepialności oraz wzrostu ryzyka wystąpienia ognisk odry.
3. Źródła danych
3.1 Dane WHO
- Zgłoszone oraz zapadalność (na 1 000 000 mieszkańców)
- Jednostka: kraj–rok
- Zakres czasowy: 1980–2024
- dane można pobrać ze strony WHO lub informacji znajdujących się w również zasobach kursu pobranych z tego źródła.
⚠️ Uwaga metodologiczna:
Wartości 0 lub brak danych (NaN) mogą oznaczać
brak raportowania, a nie rzeczywisty brak zachorowań.
3.2 Dane Banku Światowego (World Bank)
Podstawowy wskaźnik:
SH.IMM.MEAS– odsetek dzieci (12–24 miesiące) zaszczepionych przeciwko odrze do pobrania tej informacji można wykorzystać następujące zapytanie w bibliotecewbapi:
import wbgapi as wb
indicators = {'SH.IMM.MEAS': 'Vaccination_Rate'}
wb_data = wb.data.DataFrame(list(indicators.keys()), time=range(1980, 2025), labels=True)
wb_df = wb_data.reset_index()
wb_df.rename(columns={'economy': 'Country', 'time': 'Time', **indicators}, inplace=True)Przykładowe dodatkowe wskaźniki:
- PKB per capita (
NY.GDP.PCAP.CD) - Liczba ludności (
SP.POP.TOTL) - Gęstość zaludnienia (
EN.POP.DNST)
Warto rozważyć wykorzystanie innych wskaźników lub zbiorów danych. Dla danych wbapi lista dostępnych wskaźników może być wyświetlona za pomocą komendy:
wb.series.info().⚠️ Uwaga:
Wskaźnik SH.IMM.MEAS odnosi się do poziomu wyszczepienia w
grupie wiekowej (kohorcie) 12–24 miesięcy. Poziom wyszczepienia całej
populacji jest efektem kumulatywnym, który należy rozważać w dłuższym
horyzoncie czasowym.
4. Definicje operacyjne
Na potrzeby projektu należy jawnie zdefiniować:
- Ognisko epidemiczne – np.:
- przekroczenie określonego progu zapadalności,
- istotny wzrost rok do roku (r/r),
- zmienna binarna (0/1) oparta o przyjęte kryterium.
Przyjęta definicja musi być:
- jednoznaczna,
- uzasadniona,
- konsekwentnie stosowana w całej analizie.
⚠️ Uwaga: Definicja ogniska epidemicznego może mieć istotny wpływ na wyniki analizy i wnioski z niej płynące. Z uwagi na ograniczenia w dostępnych danych w których liczba zachorowań lub zapadalność określone są dla całej populacji danego kraju, należy pamiętać, że rzeczywiste ogniska mogą występować lokalnie i nie być w pełni odzwierciedlone w danych krajowych, jednak z dużym prawdopodobieństwem można przyjąć, że wzrost zachorowań w populacji krajowej może być wskaźnikiem występowania ognisk lokalnych. W przypadku wątpliwości należy to uwzględnić w interpretacji wyników. Należy pamiętać, że znając kraj oraz rok, w którym odnotowano wzrost zachorowań można również odwołać się do informacji prasowych i innych źródeł, które mogą pozwolić zidentyfikować i scharakteryzować ogniska lokalne/zasięg wzmożonej zachorowalności - wykorzystanie tych dodatkowych źródeł nie jest w niniejszym projekcie bezwzględnie wymagane, jednak może pozwolić na bardziej precyzyjną ocenę czynników oraz interpretację faktów.
5. Zadania projektowe
Część I – Analiza czasowa i przestrzenna
- Przeprowadź analizę trendów zachorowań na odrę:
- w czasie,
- możesz np. sprawdzić czy wraz z postępującą globalizacją zmieniają się wzorce przebiegu choroby
- czy wzrost zachorowalności ma charakter cykliczny czy też jest bardziej losowy
- pomiędzy krajami i regionami
- możesz np. przeanalizować czy w danym okresie w danych regionach pojawia się więcej ognisk co może świadczyć o rozprzestrzenianiu się choroby czy też zjawiska te mają zasięg tylko lokalny.
- czy istnieją grupy krajów o podobnych wzorcach zachorowalności (do tego celu możesz użyć np. klasteryzacji)
- w czasie,
- Zidentyfikuj okresy wzmożonej zachorowalności.
- Spróbuj zdefiniować metryki, które pozwolą określić okresy o podwyższonej zachorowalności (np. progi zapadalności, wzrost r/r itp.) i na ich podstawie określ kraje o wysokim, niskim i zmiennym ryzyku zachorowań.
- Wybierz ok. 9 krajów do analizy pogłębionej:
- kraje o wysokim,
- niskim,
- oraz zmiennym ryzyku zachorowań.
- możesz też wybrać inny sposób wyboru krajów, ale musi być on uzasadniony.
- Przeanalizuj jakość danych (braki, zera, raportowanie).
Część II – Analiza czynników wpływających
- Zbadaj i postaraj się zinterpretować zależności pomiędzy:
- zachorowalnością,
- wyszczepialnością,
- wskaźnikami społeczno-ekonomicznymi.
- Zastosuj odpowiednie metody statystyczne:
- korelacje,
- modele regresyjne (dobór modelu musi być uzasadniony)
- Spróbuj empirycznie określić zakres lub poziom wyszczepialności, przy którym obserwuje się istotne ograniczenie ryzyka powstawania ognisk epidemicznych
- Porównaj wynik z teoretycznym PCV.
Sugeruje się ograniczenie analizy wyłącznie krajów wybranych w Części I, ew. postawione hipotezy mogą zostać zweryfikowane na szerszym zbiorze danych. Prócz prezentacji wyników statystycznych należy zadbać o czytelną wizualizację zależności oraz ich interpretację.
⚠️ Uwaga metodologiczna: Analizowane czynniki nie muszą być bezpośrednio utożsamiane z pojedynczymi wskaźnikami pochodzącymi z danych Banku Światowego.
W szczególności w przypadku wyszczepialności należy uwzględnić możliwe opóźnienie czasowe pomiędzy podaniem szczepionki a uzyskaniem odporności populacyjnej. Z tego względu uzasadnione może być stosowanie m.in.: - uśrednionych wartości wyszczepialności w oknie czasowym, - opóźnionych (lagowanych) zmiennych, - innych pochodnych metryk lepiej aproksymujących poziom odporności populacji.
Wybór i konstrukcja takich zmiennych musi zostać jasno opisana i uzasadniona.
W części II oczekuje się, że przeanalizowany zostanie wpływ min. 4 różnych czynników (lub ich kombinacji) w tym obowiązkowe jest przeprowadzenie oceny wpływu poziomu wyszczepialności na zachorowalność. Poniżej przedstawiono listę przykładowych hipotez, które mogą być podstawą analizy czynnikowej (nie jest to lista wyczerpująca, nie ma również konieczności weryfikacji wszystkich tych hipotez) - można je modyfikować lub zastępować innymi, pamiętaj że część hipotez wymaga zdefiniowania dodatkowych zmiennych lub metryk:
- H1: Istnieje istotna statystycznie, ujemna zależność pomiędzy poziomem wyszczepialności przeciwko odrze a zachorowalnością na odrę w danym kraju.
- H2: Poziom wyszczepialności z opóźnieniem czasowym (np. 1–5 lat) lepiej wyjaśnia zmienność zachorowalności niż wartość bieżąca.
- H3: Zależność pomiędzy wyszczepialnością a ryzykiem ognisk ma charakter nieliniowy i wykazuje efekt progowy.
- H4: Kraje o średnim poziomie wyszczepialności poniżej empirycznie wyznaczonego progu charakteryzują się istotnie wyższym prawdopodobieństwem wystąpienia ognisk epidemicznych.
- H5: Zależność pomiędzy wyszczepialnością a zachorowalnością jest modyfikowana przez czynniki społeczno-ekonomiczne (np. PKB per capita, gęstość zaludnienia).
- H6: Przy porównywalnym poziomie wyszczepialności, kraje o wyższej gęstości zaludnienia wykazują większą intensywność ognisk zachorowań.
- H7: Większe wahania poziomu wyszczepialności w czasie są związane z wyższym ryzykiem występowania ognisk odry, niezależnie od średniego poziomu wyszczepienia.
- H8: Miary odporności populacyjnej oparte na skumulowanej lub uśrednionej wyszczepialności lepiej wyjaśniają ryzyko wystąpienia ognisk niż pojedyncze roczne wskaźniki.
- H9: Modele wykorzystujące wyłącznie pojedyncze wskaźniki (np. wyszczepialność) mają istotnie niższą skuteczność predykcyjną niż modele wielowymiarowe.
- H10: Empirycznie wyznaczony próg wyszczepialności ograniczający ryzyko ognisk mieści się w przedziale wynikającym z teoretycznych wartości dla odry.
Część III – Modelowanie ryzyka
- Zbuduj model predykcyjny ryzyka wystąpienia ogniska odry.
- Dane treningowe: do roku 2018.
- Predykcja: 2019–2024.
- Zmienna docelowa musi być jednoznacznie zdefiniowana np. jako:
- zmienna binarna (0/1) określająca czy w danym okresie wystąpiło ognisko,
- zmienna kategoryczna określająca poziom ryzyka (np. niski, średni, wysoki),
- zmienna ciągła określająca prawdopodobieństwo przekroczenia pewnego progu zachorowań
- zmienna ciągła określająca poziom zapadalności.
- Podziel dane na zbiór treningowy i testowy (uzasadnij strategię).
- Dopuszczalne jest wykorzystanie jako wejście predyktora również informacji wskaźnikach społeczno-ekonomicznych pochodzących z lat dla których wyznaczana jest predykcja, pod warunkiem zagwarantowania braku wycieku informacji o poziomie zachorowań.
Ocena modelu:
- zaproponuj min. jedną metrykę jakości (np. AUC, F1, Accuracy),
- oceń zgodność predykcji z danymi rzeczywistymi,
- wskaż kraje o najwyższym i najniższym ryzyku.
- przeanalizuj czynniki wpływające na ryzyko (np. analiza cech istotnych w modelu) i odnieś ją do wyników z Części II.
6. Wymagania formalne
- Wszystkie kluczowe wnioski części II muszą być poparte analizą statystyczną.
- Wartości p należy interpretować krytycznie.
- Wymagana jest czytelna wizualizacja danych.
- Kod powinien być:
- czytelny,
- modularny,
- zgodny z dobrymi praktykami (np. PEP 8).
7. Kryteria oceny
| Element | Udział |
|---|---|
| Część I – Analiza danych | 25% |
| Część II – Analiza czynników | 30% |
| Część III – Modelowanie | 25% |
| Poprawność statystyczna | 10% |
| Wnioski i struktura raportu | 10% |
| Razem | 100% |
🔧 Dodatkowo: do 20% za jakość kodu.
8. Forma oddania
- raport w formie Notebooka Jupyter (format
.ipynb) podzielony na sekcje odpowiadające zadaniom projektowym, - razem z raportem należy udostępnić kod źródłowy skryptów wywoływanych przez notebook oraz wszystkie dodatkowe wykorzystane dane (jeśli nie pochodzą z publicznych źródeł - w tym przypadku wystarczy, że w kodzie znajdą się odpowiednie zapytania do pobrania danych)
- jeśli w kodzie dane ładowane są z plików lokalnych należy dołączyć te pliki i stosować ścieżki względne
- całość (noteboook + kod + dane) należy spakować do archiwum
.zipi przesłać na platformę e-kursy.